Spark几个概念梳理(Action/Transformation)和DAGScheduler调度算法

Action/Transformation

所谓的Action与Transformation的区别: Action就是会触发DAGScheduler的runJob()方法,向DAGScheduler提交任务而已罢了;

在RDD类中,可以显式地搜索runJob,找到如下所谓的Action方法:

foreach(f: T => Unit): Unit
foreachPartition(f: Iterator[T] => Unit): Unit
collect(): Array[T] 
toLocalIterator: Iterator[T] 
reduce(f: (T, T) => T): T 
fold(zeroValue: T)(op: (T, T) => T): T 
aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U 
count(): Long 
take(num: Int): Array[T] 

而另一类方法,比如saveAsTextFile()方法则隐式地,在函数内部会调用runJob方法:

saveAsTextFile(path: String): Unit

def saveAsNewAPIHadoopDataset(conf: Configuration): Unit = self.withScope {
    ...

    jobCommitter.setupJob(jobTaskContext)
    // 此处触发runJob()
    self.context.runJob(self, writeShard)
    jobCommitter.commitJob(jobTaskContext)
}

窄依赖/宽依赖

窄依赖:查看其dependency,如果为如下dependency则为窄依赖

OneToOneDependency
PruneDependency
RangeDependency

通常对应的RDD方法为:

  map
  mapValues
  flatMap
  filter
  mapPartitions
  mapPartitionsWithIndex

宽依赖:其依赖的dependency为ShuffleDependency,其通常对应的RDD方法为(有些RDD方法支持参数可配置是否进行shuffle的):

  cogroup
  groupWith
  join
  leftOuterJoin
  rightOuterJoin
  groupByKey
  reduceByKey
  combineByKey
  distinct
  intersection
  repartition
  coalesce

DAGScheduler调度算法

DAGScheduler调度的核心为,按照宽依赖(Shuffle)分成各阶段的;

Job: 也就是上述将的submitJob()级别的任务,比如说count()是一个job, saveAsTextFile()也是一个job, take()也是一个job;
Stage: Job按照下述的算法分割成的一个单元模块,如果该stage下没有了宽依赖的RDD或者一个几个RDD组成的;
Task: Spark执行任务的最小单元;

// 通过递归方法完成stage的调度
/** Submits stage, but first recursively submits any missing parents. */
  private def submitStage(stage: Stage) {
    val jobId = activeJobForStage(stage)
    if (jobId.isDefined) {
      logDebug("submitStage(" + stage + ")")
      if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) {
        // 此处获取ShuffleMapStage
        val missing = getMissingParentStages(stage).sortBy(_.id)
        logDebug("missing: " + missing)
        if (missing.isEmpty) {
          // 如果该stage下没有了宽依赖的RDD,则执行该RDD
          logInfo("Submitting " + stage + " (" + stage.rdd + "), which has no missing parents")
          submitMissingTasks(stage, jobId.get)
        } else {
          for (parent <- missing) {
            submitStage(parent)
          }
          waitingStages += stage
        }
      }
    } else {
      abortStage(stage, "No active job for stage " + stage.id, None)
    }
  }

private def getMissingParentStages(stage: Stage): List[Stage] = {
    val missing = new HashSet[Stage]
    val visited = new HashSet[RDD[_]]
    // We are manually maintaining a stack here to prevent StackOverflowError
    // caused by recursively visiting
    val waitingForVisit = new Stack[RDD[_]]
    def visit(rdd: RDD[_]) {
      if (!visited(rdd)) {
        visited += rdd
        val rddHasUncachedPartitions = getCacheLocs(rdd).contains(Nil)
        if (rddHasUncachedPartitions) {
          for (dep <- rdd.dependencies) {
            dep match {
              // 如果是宽依赖且mapStage还不可用,则添加该stage至missing stage集合
              case shufDep: ShuffleDependency[_, _, _] =>
                // 将stage转换为ShuffleMapStage
                val mapStage = getShuffleMapStage(shufDep, stage.firstJobId)
                // 如果该stage的输出==其partition则任务已经完成并可用的,该动作是在task完成后更新的
                if (!mapStage.isAvailable) {
                  missing += mapStage
                }
              case narrowDep: NarrowDependency[_] =>
                waitingForVisit.push(narrowDep.rdd)
            }
          }
        }
      }
    }
    waitingForVisit.push(stage.rdd)
    while (waitingForVisit.nonEmpty) {
      visit(waitingForVisit.pop())
    }
    missing.toList
  }

ShuffleMapStage/ResultStage和ShuffleMapTask/ResultTask

ShuffleMap和Result为DAGScheduler调度算法(参考上部分)对stage的划分,runJob()提交任务的rdd会被转换为ResultStage,而其他由宽依赖所划分的stage则会被转换为ShuffleMapStage;

在针对ShuffleMapStage/ResultStage这两者stage进行任务分发和任务完成处理时是需要分开处理的,在任务分发阶段其处理如下:

 val tasks: Seq[Task[_]] = try {
      stage match {
        case stage: ShuffleMapStage =>
        // 对于ShuffleMapStage遍历dependencies构造ShuffleMapTask,其runTask()需要依赖shuflleManager
          partitionsToCompute.map { id =>
            val locs = taskIdToLocations(id)
            val part = stage.rdd.partitions(id)
            new ShuffleMapTask(stage.id, stage.latestInfo.attemptId,
              taskBinary, part, locs, stage.latestInfo.taskMetrics, properties)
          }
        //对于ResultStage遍历dependencies构造ResultTask
        case stage: ResultStage =>
          val job = stage.activeJob.get
          partitionsToCompute.map { id =>
            val p: Int = stage.partitions(id)
            val part = stage.rdd.partitions(p)
            val locs = taskIdToLocations(id)
            new ResultTask(stage.id, stage.latestInfo.attemptId,
              taskBinary, part, locs, id, properties, stage.latestInfo.taskMetrics)
          }
      }
    } catch {
      case NonFatal(e) =>
        abortStage(stage, s"Task creation failed: $e\n${Utils.exceptionString(e)}", Some(e))
        runningStages -= stage
        return
    }

在任务完成阶段,针对ResultTask,判定该job是否成功;
针对ShuffleMapTask,则需要注册mapOutputTracker更新shuffle完成信息;

参考:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,290评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,399评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,021评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,034评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,412评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,651评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,902评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,605评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,339评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,586评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,076评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,400评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,060评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,851评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,685评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,595评论 2 270

推荐阅读更多精彩内容